1
Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage
EvoClass-AI003Lecture 10
00:00

Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage

Le succès du déploiement des modèles d'apprentissage automatique dépend essentiellement de la disponibilité, de la qualité et du coût des données étiquetées. Dans les environnements où l'annotation humaine est coûteuse, impossible ou très spécialisée, les paradigmes standards deviennent inefficaces ou échouent complètement. Nous introduisons le spectre d'étiquetage, qui distingue trois approches fondamentales selon la manière dont elles exploitent l'information : Apprentissage supervisé (AS), Apprentissage non supervisé (ANS), et Apprentissage semi-supervisé (ASS).

1. Apprentissage supervisé (AS) : haute fidélité, coût élevé

L'AS fonctionne sur des jeux de données où chaque entrée $X$ est explicitement associée à une étiquette connue, $Y$. Bien que cette méthode atteigne généralement la meilleure précision prédictive pour les tâches de classification ou de régression, son importance sur un étiquetage dense et de haute qualité est très exigeante en ressources. La performance décline fortement si les exemples étiquetés sont rares, rendant ce paradigme fragile et souvent économiquement insoutenable pour des jeux de données massifs et évolutifs.

2. Apprentissage non supervisé (ANS) : découverte de structures latentes

L'ANS opère exclusivement sur des données non étiquetées, $D = \{X_1, X_2, ..., X_n\}$. Son objectif est d'inférer des structures intrinsèques, des distributions de probabilité sous-jacentes, des densités ou des représentations significatives au sein du manifolde de données. Ses applications clés incluent le regroupement (clustering), l'apprentissage de variétés (manifold learning) et l'apprentissage de représentations. L'ANS est particulièrement efficace pour le prétraitement et l'ingénierie de caractéristiques, fournissant des aperçus précieux sans dépendre de l'entrée humaine externe.

Question 1
Which learning paradigm is designed specifically to mitigate high reliance on expensive human data annotation by utilizing abundant unlabeled data?
Supervised Learning
Unsupervised Learning
Semi-Supervised Learning
Reinforcement Learning
Question 2
If a model's primary task is dimensionality reduction (e.g., finding the principal components) or clustering, which paradigm is universally employed?
Supervised Learning
Semi-Supervised Learning
Unsupervised Learning
Transfer Learning
Challenge: Defining the SSL Objective
Conceptualizing the Combined Loss Function
Unlike SL, which optimizes solely based on labeled fidelity, SSL requires a balanced optimization strategy. The total loss must capture prediction accuracy on the labeled set while enforcing consistency (e.g., smoothness or low density separation) across the unlabeled set.

Given: $D_L$: Labeled Data. $D_U$: Unlabeled Data. $\mathcal{L}_{SL}$: Supervised Loss function. $\mathcal{L}_{Consistency}$: Loss enforcing prediction smoothness on $D_U$.
Step 1
Write the general form of the total optimization objective $\mathcal{L}_{SSL}$, incorporating a weighting coefficient $\lambda$ for the unlabeled consistency component.
Solution:
The conceptual form of the total SSL loss is a weighted sum of the two components: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. The scalar $\lambda$ controls the trade-off between label fidelity and structure reliance.